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Рассмотрена методика тестирования результатов структурной оптимизации отношений реляционных баз 
данных, основанная на нивелировании влияния кэш-системы и доказана возможность ее практ, ической реа- 
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Введение. В современных информационных системах (ИС) базы данных (БД) являются одним из 
ключевых компонентов, поэтому повышение эффективности их использования в средних и круп- 
ных проектах является важнейшим фактором, влияющим на производительность ИС в целом. 

Наиболее известными классами методов повышения эффективности ИС, использующих 
реляционные БД (РБД) являются методы кэширования информации и методы структурной опти- 
мизации. Методы первого класса заключаются в комбинировании двух видов памяти (основной и 
кэш-памяти) и повышении скорости доступа к информации за счет сохранения в кэш-памяти наи- 
более востребованных объектов ИС. Методы второго класса основаны на различных вариантах 
декомпозиции отношений РБД, 

Методы данных классов аддитивны в том смысле, что использование методов структурной 
оптимизации совместно с методами кэширования позволяет повысить эффективность последних и 
наоборот. Объектом исследования эффективности методов структурной оптимизации являются 
системы управления базами данных (СУБД), как правило, реализующие некоторую модель повы- 
шения эффективности доступа к информации на базе собственной кэш-системы, полное исключе- 
ние которой из схемы функционирования СУБД представляется затруднительным, а в большинст- 
ве случаев невозможным. Поэтому для проведения теоретических и экспериментальных исследо- 
ваний методов второго класса необходимо нивелировать влияние методов первого класса. 

Одним из методов структурной оптимизации является метод вертикальной кластеризации 
(секционирования) отношений РБД. На базе этого метода в ДГТУ аспирантом кафедры «ПОВТ и 
АС» Нго Т.Х. был разработан эвристический алгоритм вертикальной кластеризации НВУР [1], ко- 
торый заключается в получении декомпозиции исходного отношения, приводящего к повышению 
вероятности кэш-попадания при заданном распределении запросов к БД в независимости от эф- 
фективности используемого алгоритма кэширования. При обосновании данного метода была вы- 
двинута гипотеза о том, что при практических и теоретических исследованиях методов структур- 
ной оптимизации необходимо использовать поток запросов с равномерным распределением объ- 
ектов ИС [1]. Целью настоящей статьи является теоретическое доказательство данной гипотезы. 
Постановка задачи. Рассмотрим модель информационной системы для проведения исследова- 
ний методов структурной оптимизации. Пусть данная ИС реализует в своем составе некоторый 
алгоритм замещения объектов в кэш-памяти, определим ее основные понятия: 

— объект информационной системы (объект трассы, объект системы кэширования) — мини- 
мальная единица информации, сохраняемая в кэше (в нашем случае, кортеж). Допустим также, 
что каждый объект имеет идентификатор, уникальным образом определяющий его на множестве 
всех объектов ИС; 

— Трасса — это последовательность обращений к объектам информационной системы, со- 
ответствующая некоторому потоку запросов к БД. Трасса формируется на основании пользова- 
тельских запросов, каждый из которых может подразумевать запрос в источнике данных (база 
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данных или файловое хранилище) некоторого числа объектов. Таким образом, трасса может быть 
представлена как последовательность идентификаторов объектов ИС; 

— дистанция - участок трассы для объекта а, который начинается и заканчивается обра- 
щением к объекту а и внутри себя не содержит обращений к этому объекту. 

Необходимо доказать, что использование трасс с равномерным распределением объектов 
позволяет нивелировать влияние кэш-системы на эффективность информационной системы в це- 
лом, таким образом, объективно оценить эффективность проведения структурной оптимизации. 
Доказательство. Величина временного интервала между двумя соседними вызовами объектов в 
исследованиях методов структурной оптимизации не играет роли и обычно принимается равной 1 
[2,3]. Таким образом, позиция объекта в трассе может быть интерпретирована как момент време- 
ни, в который данный объект был запрошен пользователем ИС (рис.1). 








Идентификатор |1 й 511417“ 8 
объекта 
| : ————> Т-длина 
Объекты трассы дистанция размером К трассы 


Рис.1. Схема трассы потока объектов кэш-системы 


Будем считать, что понятию «объект ИС» в реляционных системах соответствует понятие 
«кортеж». Рассмотрим отношение, состоящее из М№ кортежей и только те отношения, в которых 
№>>1. 

Пусть вероятность появления объекта в трассе в некоторый момент времени /не зависит 
ни от объекта, ни от позиции в трассе и равна: 

=Ум (1) 

Вероятность того, что объект не появится в любой позиции трассы в момент времени р, 

выражается соотношением: 
9=1-р=1-Ум=(М-1/м№ (2) 

Обозначим & -— дискретную случайную величину, равную дистанции для некоторого объ- 
екта и изменяющуюся в диапазоне (1, со). Пусть в момент времени /в трассе появляется объект а. 
Тогда с вероятностью (№-1)/№ он может появиться в (1+1)-ой позиции, с вероятностью 


Ум((м —1)/№) —в (1=2)-ой позиции и в (1+А-1)-ой позиции с вероятностью: 
Рак — Ум((м-1)/м)" ' (3) 


где 1=1,2.... 
Введем в рассмотрение Ех: 


Е, - Хим (м -1)/м)” (4) 


Выполнив преобразования в соответствии с (2), получаем: 


К 
=Ум >41 (5) 
15 
Тогда математическое ожидание случайной величины &: 
Е(5) = а; (6) 
Ао 
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А 
Введем дополнительное обозначение для суммы: 5, =“ и рассчитаем несколько 
[= 


первых значений для определения закономерности: 5, =1, 5, =24, 5, =34”. Тогда, очевидно: 
$5. =5, +5, +5, +...+5„, При т=К. Представим полученные значения в виде квадратной матрицы, 


в которой на каждой /-ой строке расположим составные части /-ого значения для 5,, /=1т. 


При этом, 5 ‚ — сумма элементов в ./-ом столбце: 





[1 0 0 ооо 
5.| а 4 0 0: 9. , 70 
55°. 94° а 000 
баса о о (7) 
ты 0 
И й 
т ое М 
Очевидно, что 5, = 5 = УЯ ‚ кроме того, 5, =5' —1, 5, =5,-4, 5. =5, -4°, из чего 


ГЕ Ге 
следует, что /-ая сумма по столбцам есть разность двух геометрических прогрессий: 


т 7 
а 1-1 1-1 
5,=2,4"-2.4 (8) 
1= (= 
Для нахождения $ ‚ Из (8) воспользуемся формулой геометрической прогрессии: 


о => =“ О а. } (9) 


И, 1-1 1-а 
т. величина Е — целая, положительная и теоретически неограничена, поэтому ее 
математическое ожидание можно вычислить по формуле: 


т 
Е(Е) = ро, ©) = а (10) 


Учитывая выражение, полученное для Ку а также подставив значения для а, предельное 


значение для математического ожидания появления каждого объекта из рассматриваемого мно- 
жества мощности № (№>> 1) на дистанции неограниченной длины, равно: 


Е® №5, т Ев Я ев }- 
и 9 1-а М№ (1-а) т— о 1-4 


т т-+1 т т т-+1 т 
в Е ‚| "4" + та т "_4 „т 
№ (1-а) то 1-4 














(11) 











5: Шт | 1 
Мея). РА: ТЕЧ 1. 19 
Так как 4<1, а также в связи с тем, что показательная функция растет на бесконечности 
быстрее любой полиномиальной, получаем: 


Е(5) = 





1 

— (12) 
2; 

м (1-9) 

Подставим значение для а: 





Е(®= т Ем (13) 
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Таким образом, если вероятность появления каждого объекта в трассе является величи- 
ной постоянной и зависит только от мощности начального множества объектов, то математиче- 
ское ожидание дистанции каждого объекта трассы равно количеству объектов и не зависит от 
других параметров системы. 

Теорема АО Ахо доказывает [4], что оптимальной стратегией вытеснения объектов из кэш- 
памяти является утилизация объектов с наибольшим математическим ожиданием дистанции по- 
явления в трассе. Также доказано, что этот алгоритм уступает по эффективности только опти- 
мальному алгоритму Биледи, для которого будущая трасса должна быть известна, что практиче- 
ски нереализуемо [2]. Однако, очевидно, что при равенстве математического ожидания дистан- 
ции для всех объектов трассы, оптимальный алгоритм Ад неэффективен, а значит, любой другой 
алгоритм кэширования, кроме алгоритма Биледи, имеет эффективность меньше эффективности 
алгоритма АО. 

Заключение. В работе доказано, что объективная оценка эффективности алгоритмов структур- 
ной оптимизации в теоретических и экспериментальных исследованиях может быть получена на 
трассах с равномерным распределением объектов. 
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